自然语言推论(NLI)是自然语言处理中的热门话题研究,句子之间的矛盾检测是NLI的特殊情况。这被认为是一项困难的NLP任务,当在许多NLP应用程序中添加为组件时,其影响很大,例如问答系统,文本摘要。阿拉伯语是由于其丰富的词汇,语义歧义而检测矛盾的最具挑战性的低资源语言之一。我们创建了一个超过12K句子的数据集并命名为Arnli,这将是公开可用的。此外,我们采用了一种新的模型,该模型受到斯坦福大学矛盾检测的启发,提出了有关英语的解决方案。我们提出了一种方法,以使用矛盾向量与语言模型向量作为机器学习模型的输入来检测阿拉伯语对句子之间的矛盾。我们分析了不同传统的机器学习分类器的结果,并比较了他们在创建的数据集(Arnli)和Pheme,病态的英语数据集的自动翻译上进行了比较。使用随机森林分类器,精度为99%,60%和75%的Pheme,Sick和Arnli的最佳结果。
translated by 谷歌翻译